草庐IT

Java EE 计划任务

全部标签

python - 任何用于并行和分布式任务的 python 库?

我正在寻找一个可以在几台服务器上分配任务的Python库。该任务类似于单机中subprocess库可以并行化的任务。我知道我可以为此目的设置一个Hadoop系统。然而,Hadoop是重量级的。就我而言,我想使用共享网络磁盘进行数据I/O,而且我不需要任何花哨的故障恢复。在MapReduce的术语中,我只需要映射器,不需要聚合器或缩减器。Python中有这样的库吗?谢谢! 最佳答案 尝试使用celery.Celeryisanasynchronoustaskqueue/jobqueuebasedondistributedmessagep

hadoop - 如何使用flume创建任务自动定时从HDFS加载数据到HIVE?

我需要将数据从hadoop自动加载到hive,但我不想设置其他服务来执行此操作。我已经使用flume来收集我的日志了……那我该怎么办呢?flume是否可以执行命令(查询hive就像LOAD.....)? 最佳答案 抱歉,我来晚了一点,但实际上我已经整理了一个非常完整的示例,说明如何执行此操作并公开了所有细节。也许,它会帮助别人http://www.lopakalogic.com/articles/hadoop-articles/log-files-flume-hive/祝你好运! 关于h

hadoop - 允许多个 hadoop/EMR 任务在关闭前失败

我正在尝试在AmazonElasticMapReduce上使用hadoop,我有数千个maptask要执行。如果一小部分任务失败,我没关系,但是,亚马逊关闭了工作,当第一个映射器失败时,我丢失了所有结果。有没有我可以用来增加允许的失败作业数量的设置?谢谢。 最佳答案 这是hadoop的答案:Isthereanypropertytodefinefailedmapperthreshold要在EMR中使用上述设置,请查看:http://docs.aws.amazon.com/ElasticMapReduce/latest/Develope

hadoop - map任务和reduce任务可以在同一个节点吗?

我是Hadoop新手,既然map节点和reduce节点之间的数据传递可能会降低MapReduce的效率,为什么不把maptask和reducetask放在同一个节点? 最佳答案 实际上,如果数据太“小”,您可以在同一个JVM中运行map和reduce。这在Hadoop2.0(又名YARN)和现在称为Ubertask中是可能的。来自伟大的“Hadoop:权威指南”一书:Ifthejobissmall,theapplicationmastermaychoosetorunthetasksinthesameJVMasitself.Thish

hadoop - 映射任务超时

我写了一个只有Map的作业,其中数据在经过一些处理后从一个HBase表写入另一个表。但是在我的映射器的setup方法中,我从一个文件加载数据,这比我的mapred.task.timeout配置花费更多的时间。我阅读了给出的解释here.我的问题是,1)在设置阶段的中间任务和任务跟踪器之间是否没有通信?2)如何更新状态字符串?? 最佳答案 只要有进度Job就不会超时进度报告很重要,因为Hadoop不会让正在取得进展的任务失败。以下所有操作都构成进度:•读取输入记录(在映射器或缩减器中)•编写输出记录(在映射器或缩减器中)•设置报告者的

hadoop - 如何在终端调试 MapReduce 任务?

有没有一种使用终端模拟MapReduce作业的简单方法?我想知道是否有一种简单的方法可以在编写代码时调试它。 最佳答案 我习惯于使用Python进行Hadoop流式处理,但我相信该解决方案也可以复制到其他语言。所以,这就是我的解决方案:catinput_folder/*|pythonmap.py|排序|pythonreduce.py同样值得一提的是,您可以通过简单地运行来查看reducer接收到的值作为输入:catinput_folder/*|pythonmap.py|排序 关于hado

Hadoop安装笔记1单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2:离线数据处理

 将下发的ds_db01.sql数据库文件放置mysql中12、编写Scala代码,使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info。字段名称、类型不变,同时添加静态分区,分区字段为etl_date,类型为String,且值为当前日期的前一天日期(分区字段格式为yyyyMMdd)。使用hivecli执行showpartitionsods.user_info命令,将结果截图粘贴至答案表.docx中对应的任务序号下;13、 编写Scala代码,使用Spark将MySQL的ds_db01库中表sku_info的全量数据抽取到H

map - 分离 Hadoop Map 和 Reduce 任务

在一个3节点的hadoop集群中。我希望主人是1个节点。Map任务发生在一个节点,Reduce任务发生在1个节点。Map和reduce任务应该分开。可能吗?据我所知,两者一起运行。如果你能阐明一些观点,那就太好了。谢谢!-塞图 最佳答案 这不是最优的,因为必须始终将map输出复制到另一台服务器。但是您可以简单地在服务器上修改您的mapred-site.xml。mapred.tasktracker.map.tasks.maximum4Themaximumnumberofmaptasksthatwillberunsimultaneous

hadoop - 我应该永远使用 oozie 运行 MapReduce 任务吗?

我有一个mapReduce任务(https://github.com/flopezluis/testing-hadoop),它读取文件夹中的文件并将它们附加到zip。我需要永远运行这个任务,所以当它完成处理它们时,它应该再次运行。我正在阅读有关oozie的信息,但我不确定它是否最合适,因为它可能对我的问题来说太大了。如果oozie是最好的解决方案。如果我编写一个协调器每10分钟运行一次,如果任务耗时超过10分钟,协调器等待再次运行该任务会怎样?任务说明文件夹总是一样的。有不同的zip文件,一个是关键。这个想法是逐步创建zip文件。我认为这比处理完所有文件后创建zip文件要快。这些文件包

hadoop - Pig 为简单的 Group by 和 count occurrence 任务抛出错误

使用Hadoop的PIG-Latin从搜索引擎日志文件中查找唯一搜索字符串的出现次数。(clickheretoviewthesamplelogfile)请帮帮我。提前致谢。pig脚本excitelog=load'/user/hadoop/input/excite-small.log'usingPigStorage()AS(encryptcode:chararray,numericid:int,searchstring:chararray);GroupBySearchString=GROUPexcitelogbysearchstring;searchStrFrq=foreachGroup